Texte et Représentation en Recherche d'Information
نویسنده
چکیده
Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont une des difficultés principale est de demander une représentation à la fois précise (pour les entités) et diffuses (pour les concepts). Dans cette présentation, j'introduirai d'abord les pro-blématiques de représentation en RI, les développements récents dans le domaine des réseaux de neurones, présenterai mes travaux en cours por-tant sur la prise en compte du contexte et du temps, et discuterai de quelques pistes de travail dans ce domaine. Bio Benjamin Piwowarski est chargé de recherche 1ère classe du CNRS au LIP6 (UPMC). Son domaine de recherche est celui de l'accès à l'infor-mation et de l'apprentissage statistique appliqué, en particulier l'appren-tissage de représentations. Il a travaillé sur la recherche d'information XML (thèse 1999-2003), sur les bases de données XML (post-doctorat 2004-06 à l'université du Chili), sur l'analyse des interactions entre un utilisateur et un moteur de recherche (Yahoo ! 2006-08) et sur l'applica-tion du formalisme mathématique de la physique quantique aux modèles d'accès à l'information (2008-11). Ses intérêts actuels portent sur (l'ap-prentissage de) représentation des données textuelles de graphes. Il a a été fortement impliqué dans l'initiative INEX (2004-07), et a organisé un workshop (IRGM'07), deux tutoriels (ECIR 2012 et ICTIR 2013), et a participé l'organisation de CORIA 2015.
منابع مشابه
Nouvelles perspectives en extraction d'information
Les techniques dites d'extraction d'information (EI) ont connu un essor considérable ces dix dernières années. L'EI consiste à extraire de documents des informations précises et à les structurer sous une forme prédéfinie. Il s'agit en général de remplir des formulaires donnant certaines caractéristiques concernant des entités ou des événements évoqués dans les textes ainsi que des relations ent...
متن کاملDocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...
متن کاملCompression de structure XML pour la recherche d'information structurée
RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...
متن کاملUne Experience Pratique D'Utilisation De L'Analyse Linguistique En Recherche D'Information: Bilan & Perspectives
Le programme PIAF est constitue par un ensemble de modules d'analyse linguistique. D6j~ pr6sent6 par ailleurs, nous rappellerons que l'objectif 6tail d'obtenir un outil suffisamment performant pour permettre l'analyse du texte fibre, en faisant appe[ ~ un principe d'interaction avec l'utilisateur. En particulier, il est toujours possible de modifier grammaires et dictionnaires en cours d'analys...
متن کاملUn modèle de recherche d'information dans des pages Web structurées en blocs
Dans le contexte de la recherche d’information sur le Web, nous présentons ici un modèle pour l’indexation et l’interrogation de pages Web utilisant aussi bien le contenu textuel que leur rendu visuel. Une page Web est considérée comme un ensemble de blocs contenant de l’information multimédia. La représentation visuelle d’un bloc (taille de police, couleur de fond, . . .), ainsi que sa taille ...
متن کامل